Informationsextraktion aus technischen Zeichnungen
Dr. Frank Weilandt
Mussten Sie schon einmal Daten über ein Objekt aus zwei verschiedenen Quellen kombinieren, zum Beispiel Bilder und Text? Bei unserer Arbeit bei dida stehen wir oft vor solchen Herausforderungen. Hier stellen wir ein Beispiel aus dem Bereich technischer Zeichnungen vor. Solche Zeichnungen werden in vielen Bereichen von Fachleuten verwendet, um Informationen auszutauschen. Sie bestehen aus Zeichnungen, die ganz bestimmten Richtlinien folgen, damit jeder Fachmann verstehen kann, was darauf abgebildet ist. Normalerweise liegen technische Zeichnungen in Formaten vor, die eine Indizierung ermöglichen, wie z. B. svg, html, dwg, dwf, usw., aber viele, vor allem ältere, existieren nur im Bildformat (jpeg, png, bmp, usw.), z. B. aus Buchscans. Auf diese Art von Zeichnungen kann man nur schwer automatisch zugreifen, was ihre Verwendung schwierig und zeitaufwändig macht. Hier könnten automatische Erkennungstools eingesetzt werden, um die Suche zu erleichtern. In diesem Blogpost zeigen wir, wie sowohl traditionelle als auch Deep-Learning-basierte Computer-Vision-Techniken für die Informationsextraktion aus Explosionszeichnungen eingesetzt werden können. Wir gehen davon aus, dass eine solche Zeichnung zusammen mit einigen textuellen Informationen für jedes Objekt auf der Zeichnung gegeben ist. Die Objekte können durch Nummern, die mit ihnen verbunden sind, identifiziert werden. Hier ist ein recht einfaches Beispiel für eine solche Zeichnung: Eine elektrische Bohrmaschine. Auf jeder Zeichnung gibt es drei Hauptkomponenten: Die Zahlen, die Objekte und die Hilfslinien. Die Hilfslinien werden verwendet, um die Objekte mit den Zahlen zu verbinden. Die vorliegende Aufgabe besteht darin, alle Objekte einer bestimmten Art / Klasse über eine große Anzahl von Zeichnungen zu finden , z. B. die Buchse mit der Nummer 653 im obigen Bild kommt in mehreren Zeichnungen und sogar in Zeichnungen anderer Hersteller vor. Dies ist eine typische Klassifizierungsaufgabe, allerdings mit einer Einschränkung: Da es zu jedem Objekt zusätzliche Informationen gibt, die über die Nummern zugänglich sind, müssen wir zunächst jede Nummer auf dem Bild dem entsprechenden Objekt zuordnen . Im Folgenden beschreiben wir, wie diese Zusatzaufgabe mit Hilfe traditioneller Computer-Vision-Techniken gelöst werden kann.